Razonamiento latente con flujos normalizadores
NF-CoT: razonamiento latente con flujos normalizadores para código eficiente y preciso. Supera a la cadena de pensamiento tradicional.
NF-CoT: razonamiento latente con flujos normalizadores para código eficiente y preciso. Supera a la cadena de pensamiento tradicional.
Descubre cómo compartir proyecciones QKV en Transformers reduce el caché KV hasta 96.9% sin perder calidad, ideal para dispositivos edge.
Descubre SparDA, una arquitectura que acelera la inferencia de LLM de contexto largo hasta 5.3x, reduciendo el cuello de botella del caché KV.
Guía para lograr razonamiento eficiente de LLM en dispositivos de borde. Usamos LoRA, ajuste fino y refuerzo para reducir tokens y latencia sin perder precisión.
NetKV reduce hasta un 21.2% el tiempo hasta el primer token en inferencia LLM desagregada, superando schedulers tradicionales sin cambios en hardware.
Reduce errores en razonamiento con KVarN. Cuantificación KV de 2 bits que optimiza la memoria y mejora el rendimiento en modelos de lenguaje.
Descubre VaSE, un método de evicción de caché KV que protege valores grandes y usa estocasticidad para mejorar precisión en modelos de razonamiento. Reduce memoria 4x sin perder rendimiento.
Descubre cómo AsymCache reduce el tiempo de respuesta de LLM hasta 2x mediante una gestión eficiente de la caché KV con Multi-Segment Attention.
Fast-dLLM++ acelera inferencia de LLM difusivos sin modificar modelo, aprovechando confianza heterogénea para lograr 37% más rendimiento sin perder precisión.
Descubre cómo StiefAttention comprime el caché KV con aproximación de rango bajo en la variedad de Stiefel, mejorando precisión y eficiencia en modelos de lenguaje.
ParisKV: recuperación de caché KV para LLMs largos, hasta 44x más rápido y robusto ante deriva. Optimiza tu inferencia.
Eso-LMs: modelos de lenguaje que combinan AR y MDM con atención causal y caché KV, permitiendo generación paralela e inferencia eficiente. Nuevo estado del arte.
StreamingVLM revoluciona la comprensión de video en tiempo real: procesa flujos infinitos con solo 8 FPS en un H100, superando a GPT-4O mini. ¡Descubre su arquitectura!
Conoce ConServe: programación por conversación para agentes LLM, reduce latencia 51% y mejora eficiencia energética en servidores IA.
ForesightKV optimiza la evicción de caché KV en modelos de razonamiento, superando métodos previos con la mitad del presupuesto y aprendizaje combinado.
Descubre cómo LRAgent comparte eficientemente la caché KV entre agentes Multi-LoRA, reduciendo memoria y cómputo sin perder precisión. ¡Optimiza tus LLMs!
Descubre Vegas: acelera LLMs hasta 2.81x usando atención dispersa guiada por verificación. Sin pérdida, código abierto.
Descubre WildCat, un nuevo método de atención que logra error mínimo en tiempo casi lineal. Ideal para modelos de IA con secuencias largas. ¡Lee más!
Descubre Grokers: arquitectura que logra comprensión persistente de grafos tipificados con inteligencia en escritura, eliminando costos de LM en consultas. ¡100% hits en KV-cache!
Descubre BudgetDraft: entrenamiento multi-vista acelera decodificación especulativa con KV disperso hasta 6.55x en contextos de 4K a 16K, optimizando memoria.